Análise Reprodutível em R

Wagner Pinheiro
Fevereiro de 2019

Sobre Mim

  • Formado em Engenharia da Computação (+Física +Téc. TI)
  • + 15 anos de experiência Dev + Ops
  • 5 anos na Mandic
  • certificações:
    • Furukawa Certified Professional
    • Itil v3
    • PSM-I
    • J.H. Data Science Specialization (Coursera)
    • AWS Developer Assoc.
    • AWS Architect Assoc.
    • AWS DevOps Pro
    • Padi AOWD (We Are Explorers!)

Agenda

Agenda: DATA SCIENCE (com R)


  • história R
  • estatística
  • análise de causa raiz
  • ciclo de vida data science
  • pipeline data science
  • relatórios descritivos no RStudio (how-to e exemplos)

Status quo (?)

Estatística

Estatística Descritiva x Inferencial

Correlação não implica em causalidade

Diagrama de Causa e Efeito: Ishikawa

Método Científico

Data Science Lifecycle

Data Science Pipeline

  • Obter + Limpar -> ETL (Extract, Transform, Load) [DWH & B.I.]

AWS Data Pipeline

R - História

Utilizado por estatísticos, analistas de dados, data miners e pesquisadores.

Gerenciamento de Pacotes

Repositórios:

  • R: Cran
  • Python: Pypi

Gerenciamento:

  • R: Packrat
  • Python: pip + Virtualenv

CRAN - Bibliotecas R

  • SQL
  • CSV
  • txt
  • RZABBIX
  • RCHEF
  • RGoogleAnalytics
  • JsonLite
  • cloudyr

Dúvida: Por que R e não Python?

Python xOR JAVA xOR .NET xOR Excel 

xOR 

[coloque sua linguagem preferida aqui!]

How-to: ggplot2

Rstudio

Rstudio

Relatórios Descritivos e Apps em Shiny

Outras Ferramentas

  • Stack ELK (Logstash + Elasticsearch + Kibana) / Graylog
  • AWS Cloudwatch / Logs / CloudTrail
  • AWS Quicksights
  • AWS SageMaker

Como começar?

Perguntas?

Obrigado!

Links